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Prufungsantrag gem. S 44 PatG ist gestellt 
@ Identifizieren pharmazeutischer Targets 
@ 2um Identifizieren pharmazeutischer Targets wird mln- 

destens eine Korrelation zwischen den Expressionsraten 

verschiedener Gene einer Zelle durch Auswertung einer 

Mehrzahl von Gen-Expressions mustern ermittelt. Dabef 

warden Korrelationen zweiter oder hoherer Ordnung be- 

trachtet. Die Korrelationen lasaen auf kausale Beziehun- 

gen zwischen verschiedenen Genen und den zugeh origan 

Proteinen schlieSen. Daher kann aus den Korrelationen 

das regulatorische Netzwerk der untersuchten Zelle er- 

schlossen warden. Aus dem solcherart erschlossenen re- 

gulatorischen Netzwerk konnen geeignete Targets identi- 

fiziert werden. 
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Beschreibung 

[0001] Die menschliche Erbsubstanz (Genom) umfasst schStzungsweise 20 000 bis 80 000 Gene, die den genetischen 
Ccxle fiir eLwa eine Million EiweiBstoITe (Proieine) beinhalLen, In den spezialisierlen Korperzellen wenlen jeweils nur 
5 Untermengen aller Gene tatsachlich abgelesen (exprimiert). Die Gesamtheit der dadurch erzeugten Proteine wild als Pro- 
teom dieser Zelle bezeichneL Das Wechselspiel der Proteine untereinander sowie mit der DNA stellt den wichtigsten Tfeil 
der Maschiiierie dar, die der Entwicklung des menschlichen Koipers aus der befruchteten EizeUe sowie alien Korper- 
funktionen zugrunde liegl. Aus der Sicht der Informatik stellt die Erbsubstanz damit einen prozeduralen Code fur die 
Struktur und Funktion des nienschlichen Korpers dar. 

10 [0002] Viele Krankheiten und Fehlfiinkdonen des Korpers gehen auf Storungen des funktionellen Netzwerks aus Ge- 
nom und Proteom zuriick. So wirken einige Medikamente als Agonisten bzw. Antagonisien spezifischer Zielpioteine, 
d. h. sie verstarken oder schwachen die Funktion eines Proteins mit dem Ziel, das aus Proteom und Genom gebildete re- 
gularorische Netzwerk zurtick in einen normalen Funktionsmodus zu bringen. Diese Zielproteine (Targets) werden bis- 
tang nach heuristischen Prinzipien aus biochemischen Uberlegungen abgeleitet. Oft ist dabei unkiai; ob die Fehlfunktion 

15 cincs Proteins tatsachlich die Krankhcitsursachc odcr nur dncs der SymptDmc dncr vcistccktcn Fchlrcgulalion an andc- 
rer Stelle des Nelzwerks darslellL 

r 0003] Fiir die Entwicklung vcrbesscrter Therapien ist daher ein quantitatives Aferstandnis des Wechselspicls zwischen 
(lenom und Proteom erforderiich. 

[0004] Aufgabe der Erfindung ist es, das Idenriftzieren von Proteinen, die sich als Target mcdikamentoser Behandlung 
20 genetisch bedingter Krankheiten oder Stdrungen eignen, zu verbessem. 

[0005J Diese Aufgabe wird durch die Hrfindungen geniaB den unabhangigfai Anspruchen gelosl. Mjileilhalle WeiLer- 
bildungen der Ertindungen sind in den Unteranspruchen gekennzeichneL 

[0006] Zum Idenrifizieren pharmazeutischer Targets wird mindestens eine Abhangigkeit oder statistische Korrelation 
zwischen den Expressionsraten verschiedener Gene einer Zelle durch Auswertung einer Mehrzahl von Gen-Expressions- 
25 mustcm crmittclt. Dabci wcrdcn u. a. Korrclationcn zwcitcr odcr hShcrcr Ordnung bctrachtct. Die Abhangigkcitcn lasscn 
auf kausale Beziehungen zwischen verschiedenen Genen und den zugehorigen Proteinen schlieBen. Daher kann aus den 
Abhangigkeiten das regulatorische Netzwerk der untersuchten Zelle erschlossen werden. 

[0007] So lassen sich Gene identifizieren, die am wahrscheinlichsten regulatorische Kaskaden initiieren. oder die fiir 
komplexe Anderungen in den Exprcssionsmustem, beispielsweise bei Voriicgen einer genetisch bedingten Erkrankung. 
30 verantwortlich sind. 

[0008] Das erfindungsgemaBe Verfahren erlaubt dadurch die Identifizierung von Ikrgets auf systematischer Basis. Dies 
geschieht durch statistische Modellierung des tegulatorischen genetischen Nelzwerks mit einem strukturlemenden kau- 
salen Netz auf der Basis von Gen-Expressionsmustem. 

[0009] Das beschriebene Verfahren ist nicht auf zeitliche Informationen angewiesen und damit auf eine breite Basis 

'AS von Gen-Hxpressionsmessungen anwendbar. 

[0010] Das beschriebene Verfahren wird iibhcherweise mit Hilfe eines Computers duichgefuhrt. 
[0011] Die Erfindung ist besonders geeignet. High Throughput Drug Discovery Verfahren in der Biotechnologie zu er- 
ganiten. Eine weilere Anwendung der Erfindung findet sich iui Bertach der Unter^itulzung von TUmordiagnoslik und Tu- 
moibehandlung. Untersucht werden konnen sowohl regulatorische Zusammenhange im menschlichen Koiper als auch in 

40 jedem anderen Lebewesen, sei es Tier oder Pflanze, Bakterium oder eine sonstige Zelle. 

[0012] Die einzehien Messungen der Gen-Expiessionsmuster werden dabei als unabhangig voneinander angesehen. 
Sic stcUcn Zufallswcrtc dar, die von cincr unbckanntcn hochdimcnsionalcn Wahrschcinlichkcitsvcrtcilung crzcugt wur- 
den. Die voUstandige Charakterisierung der slatistischen Siruktur bzw, der Korrelaiionen der Gen-Expressionsralen an- 
hand der gemessenen Expressionsmuster ist gleichbedeutend mit det Schatzung der zusammengesetztcn, hochdimensio- 

45 nalen WahrscheinUchkeitsverteilung fUr diese Muster. Beinhaltet eine Messung die Bestimmung der Expression von 
5000 Genen, so ist eine 5000-dimensionale Wahrscheinlichkeitsdichte zu schatzen, was in voUer Allgemeinheit groBe 
Schwicrigkcitcn bcrcilct 

[0013] Kausale Netze nehmen an, dass in den Daten bedingte Unabhangigkeiten existieren. Bine bedingte Unabhan- 
gigkdt liegt dann vor, wenn zwei Zufallsvariablen unter der Bedingung voneinander unabhangig sind, dass alle andeien 

50 Zufallsvariablen konstant gehalten werden, dass also Korrelation«i hSherer Ordnung Qber eine mehrstufige Riickkopp- 
lungsschleifie zwischen den beiden Zufallsvariablen vemachlassigt werden. Die voUe Wahrscheinlichkeitsdichte kann 
dann durch ein Produki von niedriger dimensionierten WahrscheinlichkeiL«;dichten ersetzt werden. 
[0014] Bine besonders efiiziente Moglichkeit, die Korrelationen bzw, Abhangigkeiten zwischen den einzelnen Zufalls- 
variablen, also den Expressionsraten, der hochdimensionalen Wahrscheinlichkeitsverteilung zu erschlieBen, besteht 

55 darin, dass zunSchst eine Menge von unabhSngigen Zufallsvariablen angenommen wird. 

[0015] Sukzessiv wird jeweils diejoiige Korrdation dem NetzwCTk hinzugefugt, die den F^er des Netzes fur die Er- 
klSrung neuer Daten (Generalisierungsfehler) am meisten herabsetzi. Das heiBt, es werden diejenigen Korrelationen an- 
genonmien, bei denen die tatsachlich gemessenen Gen-Expressionsmuster die hochste Wahrscheinlichkeit unter alien 
dttikbaren Wabrscheinlichkeiisverteilungen aufweisen. Dies wird fortgesetzt, bis sich der Generalisierungsfehler nur 

60 noch irmerhalb einca* vorgegebenen SchweUe veningem lassL 

[0016] Die bevorzugte, cinfachstc Ausfuhrungsform der Suchstrategien fiir die Korrelationen erfolgt mit Hilfe der fol- 
genden Schritte: 

- zunachst wird dicjcnigc allcinigc Kantc gcsucht, die den Generalisierungsfehler minimicrt, sozusagcn die bcstc 
65 erste Xante. 

- anschlieBend wizd die beste zweite Kante gesucht. 

- U5W., bis sich der (Teneralisieningsfehler nicht mehr sinnvoil v«1>esseni ISssL 
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[0017] Auf diese Weise kSnnen sowohl die Korrelationen zwischen den Zufallsvariablen (Expressionsraten) erschlos- 
sen wcrden als auch die Form der hochdimensionaien Wahrscheiniichkeitsverteilung, letztere zumindest quaiitadv. Das 
ErschHeBen der Korrelationen zwischen den Zufallsvariablen mil der Moglichkeit, diese Korrelationen mit Hilfe von 
mindestcns leilweise gerichleien Graphen darzuslellen. wild ali> SLrukLurlemen bezeichnet, da hierbei die Slruklur des le- 
gulatoiischen Netzwerics gelemt wird. 5 
[0018] Beim sukzessiven ErgSnzen von Kprrelaiionen kann auf vorhandenes Vfisseii tiber regulatorische Zusammen- 
hange zuriickgegiiJffen werden. Auf diese Weise kann das ErschlieBen der regulatorischen Zusammenhange weiter be- 
schleunigt und pr&zisiert werden. 

[0019] Dieser insbesondere fiir hochdimensionale Daten sehr zeitaufwandige Algorithmus lasst sich durch schnelle, 
fast-optimale Suchstrategien fiir wichtige Abhangigkeiten entscheidead beschleunigen. Ein bekannter Algorithmus hier- lO 
fiir ist der Greedy-Algorithmus (T. H. Gormen, G. E. Leiserson, R. L. Rivest, C. Stein: "Introduction to Algorithms", 2nd 
edition McGraw-HiU Golmnbus, OH (2001)). 

[0020] Durch eine kQnstliche VerSnderung einzelner Gen-Hxpressionsraten kann mn Hilfe der aus den bisher vorlie- 
genden Daten berechneten Struktur des regulatorischen Netzwerks, bzw. der hochdimensionaien Wahrscheiniichkeits- 
verteilung, das am wahrschcinlichstcn rcsulticrcndc Gcn-Exprcssionsmustcr vorhcrgcsagt werden. Dieses kann mit Mcs- 15 
sungen an erkranklem Gewebe (beispielsweise 'l\jmorgewebe) verglichen werden. Dadurch isl es iiioglich, die einer 
krankhaft veranderten zellularen Tunktion ursachlich zu Grunde liegende Gen-Gruppe bzw. gegebenenfalls das zu 
Cirunde liegende einzelne (Jen zu erkennen und das zugeh6rige Protein als Ikrget einer medikament5sen Behandlung zu 
identifizieren. 

[0021] Im Folgraden wird die Erfindung anhand von Ausfiihrungsbeispielen naher a-lautert, die in den Figuren sche- 20 
maiisch dargestelU sind. Gleiche BezugsziOem in den einzeL:ien Kguren bezeichnen dabei gleiche Elemente. Im Einzel- 
nen zeigt; 

[0022] Fig. 1 schematisch die regulatorischen VorgSnge, die das Expressionsmuster ein«: Zelle besrimmen; 
[0023] Fig. 2 einen gerichteten azykHschcn Graphen; und 

[0024] Fig, 3 illustricrt Moglichkciicn, die Richtung von Kantcn in cincm gerichteten azyklischcn Graphen zu bcstim- 25 
men. 

[0025] Fig. 1 zeigt die wichtigsten Wechselwirkungen zwischen Genen und Proteinen eines DNA- Abschnitts auf. Die 
Wechselwiricungen werden als Basis fiir die Beschreibung des genomischen regulatorischen Neizwerks herangezogen. 
[0026] Im oberen TeQ der Fig. 1 ist schematisch angcdeutet, wie ein von aufien auf die Zelle einwirkendes cxtemes Si- 
gnal - etwa im Rahmen der interzellularen Kommunikation -, das beispielsweise von einem TVansmemhran-Rezepior- 30 
protein (z. B. von einem Kalziuxnkanal) aufgenommen und in geeigneter Weise in das Innere der Zelle ubertragen wird, 
die Produktion der Gene A, B, C und D des DNA- Abschnitts auslost 

[0027] Es besteht daher prinzipiell auch die Moglichkeit, die Expressionsrate einzelner Gene ein« Zelle tiber die er- 
wahnten Wege von auBertialb der Zellen zu beeinflussen. 

[0028] Als ein Gen wird ein nicht norwendigerweise zusammenhSngender Abschnitt der DNA bezeichnet, der den ge- 3.S 
netischen Code fiir ein Protein oder auch fur eine Gruppe von Proteinen enthalt. 

[0029] Der Produktionsvorgang eines Proteins aus einem Gen, zum Beispiel Protein A ausgehend von Gen A in Big. 1, 
wird als Expression dieses Gens bezeichnet. Die Oberselzung des DNA-Codes des Gens in die KeLle der Aininosauren 
des Proteins wird als Translation bezeichnet Die Rate, mit der Ptotein A in einem gegebenen Kontcxt produziert wird, 
wird seine Expressionsrate genannt. 40 
[0030] Nicht allc Gene werden in einer Zelle exprimiert. N^elmehr unterscheiden sich verschiedoie Zelltypen durdi ihr 
Gcn-Exprcssionsmustcr. Dies gilt oftmals auch fiir dca Untca-schicd zwischen krankcn und gcsundcn Zcllcn. 
[0031] Das Expressionsuiusler einer Zelle wird durch die in Fig. 1 schematisch daigesteUlen regulatorischen Vbigange 
bestimmi. Die regulatorischen \brgange werden im Wesentlichai von einigen wichtigen Wechselwirkungen zwischen 
Proteinen und (lenen sowie zwischen den Protdnen untereinander bestimmt. 45 
[0032] So kann die Expressionsrate eines Gens A durch das \brhandensein eines anderen Proteins B reguliert, d. h. er- 
hoht, cmicdrigt odor zum Eriicgcn gcbracht warden. In dicscm Beispiel wirkt das Protein B rcgulatorisch auf das Gen A 
bzw. das Protein A. Zu regulatorischen Proteinen konnen beispielsweise die Pn^teinbausteine von Aktivatorkomplexen 
gerechnet werden. Regulatorische Proteine konnen sich gleichzeitig auf viele Zielgene auswirken. 

[0033] Eine zweite Art der Wechselwirkung besteht in der postttanslationalen Modifikation von Proteinen, d. h. der 50 
Modifikation von Proteinen nach der Translation. In der Regel erfolgt die posttranslationale Modifikation eines Proteins 
im unmittelbaren Anschluss an die Translation, d. h. bevordas Protein in der Z^lle wirkt. So werden zum Bei.spiel viele 
Proteine von speziellen Hnzymen phosphoryliert oder glykolysiert, d. h. das Zielprotein wird durch Anhangen bzw. Ab- 
spalten chemisch^ Gruppen in seinen funktionelien Zustand gebracht oder in einen Zustand versctzt, in dem es nicht 
mehr wirlcsam ist Posttranslationale Modifikation kann also ein ftotein gegebenenfalls temporar funkdonell einschaltMi 55 
oder ausschalten. 

[0034] Tn Fig. 1 ist das Protein A ein so genanntes Rffektorprotein, d. h. es wirkt innerhalb der Z^lle auf andere Sub- 
stanzen und nicht unmittelbar auf das Genom oder Proteom, In Fig. 1 modifiziert somit das Ptotein C im ^ge der post- 
translationalen Modifikation die Funktion des Eflfektorproteins A. 

[0035] Protein B isl ein regulalorisches Protein, da es die Expressionsrdle des Proteins A beslimmU indem es mil dem- 60 
jenigen DNA- Abschnitt wechselwirict, der das Gen A enthalt Das Protein D modifiziert somit die Funktion cir«s regu- 
latorisdien Proteins (Protein B) im Wege der positransladonalen Modifikation. 

[0036] Die Nukleinsauresequenz der menschlichen DNA ist weitestgehend bekannt Auch die dureh die DNA kodier- 
tcn Gene sind in zunch m o ndcm Mafic idcntifizicrt Nicht ganz so voUstandig ist das Wsscn iibcr das Prolcom, cin- 
schlieBlich der eventuell durch Wechselwirkung zwischen den Proteinen posttranslational modifizierten Proteine. Aller- 65 
dings erlaubeo neuere Sequenzierungs- und Ilocbdurchsatz-Screeningverfahira eine rasche Identifizierung weiteier 
Cjene imd Proteine. 

[0037] Ein weiterer wichtiger Schritt zur Aufidarung dsr Expressionsmuster einer Zelle hat sich mit der Entwicklung 
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von Hochdurchsatz-HybridisieningstechnikeD voUzogen. Bei diesen Verfahren wird auf einem so genanaten Microarray 
die Expressionsrate vieler 100 verschiedener Gene gleichzeitig getestet. Mit Hilfe dieser ^ferfahren ist es mogiich, das 
Gen-Expressionsmuster einer Zelle zu bestimmen. 

[0038J Dazu werden in der Regel die in der Zelle synlheLisierlen iiiRNA (messenger RNA) bestiinmL. Die uiRNA isL 
5 ein Zwischenprodukt bei der Translation des Gens zum Protein. Die mRNA ist somit eine Vbrstufe bei der Bildung des 
Proteins. Die zu uatsrsuchende Zelie 'Adrd zunachst isoliert. AnschlieSend wird sie aufgcschlosscn. Durch gseigneto 
Au&einigungsschrittc wird die noRNA aus der Zelle isoliert Danach wird die mRNA mittels der reversen Ttanskriptase 
in cDNA (complementary DNA) Obersetzt. Diese wird mit i. d. R. linearer PGR (polymerase chain reaction) amplifiziert. 
Die so gewonnene cDNA wird mit Hilfe von geeigneten ^ficroarrays, z. B. DNA-Chips, qualitativ bzw. quantitativ ana- 
10 lysien. Mit modemen Microarrays konnen die Expressionsraten von 5000 und mefar Genen gleichzeitig vcrmesscn wer- 
den. 

[0039] Aufgrund dieser verbcsserten "Ifechniken steht mittlerweile dn umfangreiches Wissen ubcr das menschliche Ge- 
nom und Proteom sowie Qher die Wechselwiricungen zwischen Pmteinen und Genen bzw. Proteinen untereinander zur 
Verfugung. 

15 [0040] Im Folgcndcn wcrdcn zunachst cinigc ftir die Aufklaning des rcgulatorischcn Nctzwcrks benOtigtc mathcmati- 
sche BegrilTe eingefiihrt, 

[0041] Die aus den gemesscnen Gen-Expressionsmustem bestimmten Expressionsraten der einzelnen Gene sind die im 
Fclgenden zu betrachtendai Zufallsvariablen. Fiir (len i wird die die Expressionsrate reprasentierende Zufallsvariable 
mit Xi bezeichnet Werte, die sie aimehmen kann, weiden mit Xi bezeichnet. Mit 



wird der Zufallsvektor bezeichnet, der aus den Hxpressionsraten aller k Gene besteht 0*^ bezeichnet die IVansposition. 
[0042] Um die Korrelationen zwischen den Expressionsraten bzw, Zufallsvariablen zu ermitteln, werden verschiedene 
Momente der Zufallsvariablen betrachtet 

[0043] Das erste Moment des Zufallsvektors X, das auch als Erwartungswert E bezeidmet wird, ist definiert durch 
EX := (ai. . . ai)*^ := (EXi EXk)"^. 



[0044] Aufgrund bekannter statistischer tJberlegungen wird der Erwartungswert EXi der Expressionsraten Xi mit Hilfe 
des arithmedschen Mittels der beobachteten Expressionsraten Xj Uber n Messungen von Gen-Expressionsmustem ge- 
:)5 schgtzt: 



40 wobei Xim die fUr das CJen i in der Messung m ermittelte Expressionsrate angibt und der hochgestellte Index (s) anzeigt. 
dass es sich um einen geschatzten Wert handelt 
[0045] Die zwcitcn Momcntc sind definiert durch 



aij:=E(Xi.Xj). 

45 

[0046] Wiederum aufgrund bekannter stadstischer Oberlegungen wird der fiir das zweite Moment zu beiechnende Er- 
wartungswert E(Xi • Xj) mit Hilfc der folgcndcn Glcichung gcsch&tzt: 

[0047] Das zweite zentrale Moment wird auch als Kovarianz bezeichnet. Vjr ist definiert durch 
cov(Xi, Xj) := ny := - EXj] • [Xj - EXj]). 

55 

[0048] Es gilt aufgrund der Linearitat des Erwartungswerts 
covC?^ X|) = pij = E(Xi • Xj) - EXi . EX| = og - cXi • ctj. 
60 [0049] I>ie Schalzung der Kovarianz erfolgt in bekarmier Weise niiUels 

65 [0050] Die yx^ sind gerade die Varianzen der einzelnen lixpressionsraten Xi: 
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[0051] Ihre SchStzuag erfolgt in bekannier Weise Uber 



5 

[0052] Die k X k-Matrix 

cov(X. X) : = E([X -EX] • [X-EX]^)=B(X - X"^) -EX • EX*^ 

wind als Kovarianzmatrix von X bezeichnet. 10 
[0053] Die Korrelation der Zufallsvariablen Xi und Xj wind hSufig mit Hilfe des Konelationskoeflizienten (zweiter 
Ordnung) bestimmt. Dieser ist definiert durch 

cov(^,,^J 

Pi, •= — • 15 

[0054] Er liegl zwischen 1 und +1, Er lasst sich unter Verwendung der angegebenen SchStzungen der Kovarianz und 
der Varianz ebenfails schatzen. Ein verschwindender Korrelationskoeffizient deutet auf die Abwesenheit regulatorischer 
Zusam fnenh finge bin. Ein signifikant von Null verschiedener Korrelationskoeffizient deutet auf eine statistische und da- 20 
inil legulalorische Abbangigkeilen bin. 

[0055] Die obigen Definitioneo lassen sich auf dritte, vierte und beliebig hohere Momente verallgemeinem. Insbeson- 
dere ist das dritte Moment definiert durcb 

a^:=E(Xi.3^.Xk). 25 
[0056] Das dritte zeotrale Moment ist definiert duich 
Mijk := E([Xi - EXi] . [Xj - EXj] • [X^ - EXJ). 
[0057] Es wird in bekaonter Weise geschatzt durch 

W m«l 

[0058] Die Koneiation der Zufallsvariablen Xi, Xj und X^ kann ebenfalls mit Hilfe des Korrelationskoefi&zieaten drit- 
ter Ordnung bestinunt werden. Dieser ist definiert duicfa 

p - 

[0059] Er licgt ebenfalls zwischen -1 und +1 und kann in glcichcr Wcisc wic der KorroladonskocfiBzicnt zwcitcr Ord- 
nung geschalzL werden. 

[0060] In einem bevorzugten Ausfuhrungsbeispiel der Erfindung wird das MDrliegen regulatorischer Abhangigkeiien 
dadurdi ermittelt, dass die Konelationskoeffizienten daraufhin getestet werden. ob sie signifikant von Null abweichen. 45 
Statistisch gespiochen wird die Hypothese getestet, ob der Korrelationskoeffizient verschwindet Dies kann mit Hilfe 
verschiedener bekanntcr statistischcr Ibstvcrfahrcn durchgcfiihrt werden. Das bcvorzugtc Vcrfahrcn ist bcispidswtasc in 
Bronstein-Semendjajew: "Taschenbuch der Mathematik", Vferlag Harm Deutsch, 22. Aufl., 1985, S. 693, beschrieben. 
[0061] Die geschilderten Verfahren haben allgemein das Ziel, statistische Abhangigkeiten bzw. Unabhangigkeiten auf- 
zuklMrCT und dadurch das Netzweik der Beeinflussungen aus den Daten zu extrahieren. 50 
[0062] Reguliert das Protein B das Gen A und sind keine anderen regulatorischen Phanomene vortiandea, so auBert 
sich diese Higenschaft in einer staristischen Korrelation oder Antikorrelaiion beider Expressionsraten ilher verschiedene 
Messungen hinweg (statistische Abl^gigkeit bzw. Korrelation zweiter Ordnung). 

[0063] Die Gegenwart eines Metaregulators wie Protein D in Fig, 1 driickt sich hingegen in einer statistischen Abhan- 
gigkdt dritter Ordnung aus, d. h. in einem nicht verschwindenden Koirelationskoeffizienien dritter Ordnung. S5 
[0064] In einer Zelle existieren viele. tdlweise noch unbekannte regulatorische Riickkopplungsschleifen, derra Exi- 
stenz sich in komplexen statistischen Reziehungen zwischen Expressionsraten ausdriickt. 

[0065] KoireiaUonen werden oft durch gerichtete Otaphen zwischen Zufallsvariablen daigestellt (siehe z. B. David 
Edwards: "Introduction to Graphical Modelling", Springer Tbxts in Statistics, Springer Verlag, 1995). Derartige Modelle 
werden dah^ aucb als graphische Modelle bezeichnet. 60 
[0066] Die hochdimensionale Wahrscheinlichkratsverteilung fur die ZufeQlsvariable 



= (^, Xj 

kann mit Hilfe eines Netzwerks oder Graphen G daxgesteUt werden, wie er in 2 fur ein einfaches Beispiel gezeigt ist 
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Die Knoten 1, 2 und 3 entsprechOT dabei Zufallsvariablen Xl, X2 und X3. Im Rahmen der statisdschen Modellierung re- 
guiatorischer Zusammeabange im Genom werdea die Zufallsvariablen mit den Expressionsraten identifizien. 
[0067] Im Graphen G gem. Fig. 2 werden Abhfingigkeiten durch gerichtete Kanten dargestellt. Dabei wird die AbhMn- 
gigkdl der Zufallsvariable X2 von der Zufallsvariable Xi durch eine gerichlele Xante 12 vom Knolen 1 zum KnoLen 2 
5 dargestellt. Die Abhangigkeit der Zufallsvariable X3 von der Zufidlsvariable X2 wird durch eine gerichtete Xante 14 von 
KnotKi 2 zum Knoten 3 dargestellt 

[0068] Wird eine Korrclation zweiter Grdnung festgesteiii, so wird dies durch eine Kante zwischen zwei Knoten, d. h. 
zwischen zwei Zufallsvariablen, im Graphen angezeigL Im Allgemeinen ist es nicht m6glich, die Richtung dieser Kante 
zu ermitteln, d. h. welche der beiden Zufallsvariablen ureachiich fur die andere isL Beobachtet wird ledigUch das gleich- 
10 zeitige Auftretcn. Damit kann im allgemeinen auch nicht ermitteil werden, welches von den beiden beieiligten Genen 
bzw. Proteinen das andere reguliert. 

[0069] In bestimmten Fallen kann jedoch die Richtung einer Kante ermittelt werden. F^. 3A zeigt dnen solchen Fall. 
Gezeigt sind drei Knoten 1. 2 und 3. Zwischen diesen drei Knolen sind zwei Kanten eingezeichnei, und zwar die Kante 
20 zwischen den Knoten 1 und 3 sowie die Kante 22 zwischen den Knoten 2 und 3. Beide Kanten sind in Richtung auf 

15 den Knoten 3 gcrichtct In der Graphcnthcoric wird cin solchcr Fall allgcmdn als "collider" bczcichnct. Statistisch wird 
man in einer solchen KonsleUadon eine KorrelaLion zweiter Ordnung zwischen den Knoten 1 und 3, also den zugehori- 
gen Zufallsvariablen, ermitteln, sowie eine weitere Korrelation zweiter Ordnung zwischen den Knoten 2 und 3. Man 
wird jedoch keine Korrelationen dritter Ordnung feststellen, da beispielsweise die Zufallsvariablen 1 und 3 sich gegen- 
seitig beeinflussen, ohne jedoch einen Einfluss auf die Zufallsvariable 2 zu haben. 

20 [0070] Ubersetzt in die Sprache der regulatorischen Wechselwirkungen zwischen Genen bzw. Proteinen zeigt der 
Graph gem. tig, 3A, dass das Gen 3 durch Gen bzw. Protein 1 und 2 reguliert wird, jedoch nicht umgekehrt, Wird bei- 
spielsweise Gen 1 exprimiert, so wird nach dem Modell gem. Fig, 3A auch Gen 3 exprimiert. Dies impliziert jedoch 
nicht, dass auch Cien 2 exprimiert wird. Werden zwei Korrelationen zweiter Ordnung gefunden, eine zwischen Knoten 1 
und Knoten 3 und die andere zwischen Knoten 2 und Knoten 3, so konnen die Kanten nicht anders gerichtet sein, da sich 

25 sonst cine Korrelation drittcr Ordnung zcigcn wiirdc (vcrglcichc Ffe. 3B). 

[0071] Anders verhalt es sich im Falle von Mg. 3B. Fig, 3B zeigt Graphen. die im wesentUchen dem Graph gem. Fig. 
3 A entsprechen und auch in gleicher Weise zu lesen sind. Lediglich die Kanten und ihre Richtungen sind variierl. Alle in 
Fig. 3B gezeigten Graphen weisen ausschlieBlich eine Korrelation dritter Ordnung zwischen den Knoten 1, 2 und 3 auf 
und sind auf der Basis der Korrelationsanalyse nicht unterscheidbar. 

30 [0072] Tm Allgemeinen ist es sehr schwierig, auf der Basis von Gen-Hxpressionimiustem posttranslationale Modifika- 
tionen zu erschlieBen. Allerdings geben Korrelationen dritter Ordnung zmnindest einen Hinweis auf solche posttransla- 
tionalen Modifikationen. 

[0073] Im Folgenden wird das Erkennen des zu einem regulatorischen Netzwerit gehOrcnden Graphen nSher erlautert. 
[0074] Die gemeinsame Wahrscheinlichkeitsverteilung der Zufallsvariablen X^, X2 und X3 aus Fig. 2 kann stets durch 
35 ein Produkt bedingter Wahrscheinlichkeiten ausgedrtickt werden: 

P(Xi, X2, X3) = P(X3K2. Xi) . PpCiKi) . P(Xi). 

[00751 Im Graphen G gem. Fig. 2 werden die bedingten Wahrscheinlichkeiten der rechtra Seite durch gerichtete Kan- 
40 ten dargestellt. Dabei wird die bedingte Wahrscheinlichkeit P(X2lXi) durch eine gerichtete Kante 12 vom Knoten 1 zum 
Knot«3 2 dargestellt. Die bedingte Wahrscheinlichkeit P(X3(X2, XO wird durch eine gerichtete Kante 14 von Knolen 2 
zum Knoten 3 dargestellt. Dcrartigc Graphen G werden als gerichtete azyklischc Graphen (DAG, directed acyclic graph) 
bezeichnet. Die Graphen G heifien azyklisch. da es in dem belnichteLen malhemadschen Modell niemals eine zyklische 
Graphenkonfiguration geben wird, bei der beispielsweise in Fig, 2 auch noch eine gerichtete Kante vom Knoten 3 zum 
45 Knotai 1 verlauft, die einen Kreis schlieBai wUrde. 

[0076] Bei der bedingten WahrscheinUchkeit P(X3 IX2, Xi) stellen die Zufallsvariablen Xi und X2 die so genannten El- 
tcm (Pa, parents) dor Zufallsvariablen X3 dar, d. h. 

Pa(X3)={Xi,X2]. 

so 

[0077] Allgemeinen kann daher eine hochdimensionale Wahrscheinlichkeitsverteilung der Variablen Xi geschrieben 
werden als 

35 P(.X„...,X,) = flP{x,\PaiX,)). 

[0078] Dabei ist mit PapCJ die Menge der ratem der Variablen Xi bezeichnet 

[0079] Slatistische Unabhangigkeiten kormen in einem solchen Graphen G durch betrachten der Eltem einer 2Aifalls- 
variablcn bestimmt werden. 

60 [0080] Die Struktur eines solchen Graphen G wird durch Vergleich mit gewonnenen Daien, im voriiegenden Fall den 
gemessenen Gen-Expressionsmustem, bestimmt Das slatistische Problem kann daher in d^ folgenden Wkise formuliert 
werden: ausgehend von einem Datensatz 
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I 2 • ■ • 

y(2) v(2) y(2) 
Xj ^2 -^k 



von a Realisieningea der ZufoUsvariabien (Xi, . . wird deijeiiige Graph O gesucht, der den Datensatz D am bescen 
wiedergibL 10 
[0081] Es gibt im wesentlichen zwei Wege, die Struktur eines Graphen G aus den Daten D zu erschliefi«i: Die so ge- 
nanntc "constrained based method" (R. Hoftnann: "Lemen der Struktur nichtlinearer Abhangigkeiten mit graphischen 
Modellen*', dissertation.de Berlin, 2000) und die so genannte "score based method" (R. Hofmann: "T^men der Struktur 
nichtUnearer Abhangigkeiten mit gr^hischen Modelicn", dissertadon.de Berlin, 2000), die zur Ausfiihrung der Erfin- 
dung bcvorzugt wird. 15 
10082J Die "constrained based nielhod" versucht, stalislische Abhangigkeiten bzw. Unabhangigkeilen aus den Daien 
zu erschlieBen, ahnlich wie es welter oben im 2Uisammenhang mit der Sch^ung von Koneiadcnskoeffizienten gesclul- 
dert wurde. 

[0083] Die "score based method" sucht den Raum der moglichen Graphen ab und bewertet die X)bereinstimmung zwi- 
schen den Graphen und den Daten mit Hilfe einer Bewertungsfunktion. Das Modell mit dem besten Wert der Bewer- 20 
Lungsfunkiion wird ausgewiihll. MogUche Bewerlungsfunklionen sind das Bayes-MaB (D. Heckerman: "A Bayesian Ap- 
proach to learning causal networics", Tech Report MSR-TR-95-04, Microsoft Research 1995), die MDL-Metrik (s. u.) 
Oder die BIC>Bewertungsfunkdon (Cj. Schwarz: "Estimating the dimension of a moder, llie Annals of Statistics 6(2): 
461-^64 (1978)), 

[0084] Die bcvorzugtc Bewertungsfunktion ist die MDL-Mctrik. MDL stcht fiir "minimum description length". Dicsc 25 
Bewertungsfunktion hat zum Ziel, die Daten durch ein Netzwerk bzw. einen Graphen G moglichst genau mit moglichst 
wenig Kanten zu beschieiben. Die verwendete Bewertungsfunktion lautet: 

L(G,D) = logP(G)-« /f(G,£>)-ii: iogH . 

[0085] Dabei ist logP(G) die a-priori-Wahrscheinlichkeit (im Sinne einer Baycs-Bewertung), den Grafen G vorzufin- 
den. logP(G) wird fUr alle Graphen G glelch angenommen. Es kann daher bei der Maximierung von L aiiBer Betracht 
bleiben. 

[0086] n ist die Anzahl der zur Verfugung stehenden, gemessenen Datens^tze. :i5 

^(G,^)=ZZZZ-— 1°8^ 

is] «s| Isl /al W -iVi^ 

40 

gibt die bedingte Entropie des Gr^hen G in Anbetracht der Daten D wieder. 

[0087] Dabci ist k, wic obcn crwahnt, die Anzahl der Zufallsvariablcn Xj bzw. die Anzahl der Knotcn i. D. h. cs wird 
liber alle Knoten sumniiert 

[0088] Ei ist die Anzahl der unmittelbaren Eltem des Knotens i, d. h. die Anzahl der zum Knoten i hin gerichteten Kan- 
ten. D. h. es wird zusStzlich liber alle zum Knoten i hin gerichteten Kanten summiert 45 
[0089] Ti ist die Anzahl der moglichen (diskreten bzw. diskretisierten) Werte xj, die die Zufallsvariable Xj annehmen 
kann, die also der Knotcn i armchmcn kann. D. h. cs wird tibcr alle mdglichcMi Wcrtc dcr Zufallsvariablcn Xl bzw. des 
Knotens i summierL 

[0090] qci ist die Anzahl der moglichen (diskreten bzw. diskretisienen) Werte Xci, die der unmittelbare EUemknoten e 
des Knotens i, d h. die Zufallsvariable Xa annehmen kann. D. h. es wird zusatzlich Qber alle mSglichen Werte der Zu- 50 
fallsvariablen Xei bzw. des Knotens e summiert 

[0091] Niiq ist die Anzahl der Datensatze in denen der Knoten i den Wert Xi hat und der unmittelbare Kltemknoten e 
den Wert Xj hat, gezahlt iiber alle n Datensatze. D. h. es wird die Kante zwischen den Knoten i und e betrachtet und ge- 
zahlt, wie oft bci den gemessenen Datensatzcn die zugehdrigen Werte xi und xj auftraten. Hier HieBen die gemessenen 
Daten ein. ss 
[0092] SchlieBlich ist die Normiertmg 



d. h. es wird iiber alle Wate summiert, die der Knoten i annehmen kaim. 

[0093] Die Entropie ist ein nicht-negati ves MaB der Unsicherheit, das maximal isa, wenn die Unsichertieit maximal ist, 
und das verschwindet, wenn vollstaiidiges Wissen voiliegt. 
[0094] K ist gcgcbco durch: 
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[W>95] Vernachlfissigt man den Ibrm " 1 " in der Klammer, so erkennt man in K die Anzahl aller Kombinationen von 
Werten» summiert iiber alie Kanten. Isl die Anzahl da: Kanten in einem Graphen G klein, so ist in der Regei auch K klein. 
weshalb L entsprechend gr5Ber ist. Dieser letzte Tfenn der rechlen Seite erhSht somit den Wert von L fUr Graphen mit we-* 
nigen Kanlen, er bevorzugt somil einfache Graphen. Hr wird auch Hvidenz genannl. 

[0096] Die Bewertungsfunktion L entspricht in etwa dem Logarithmus der Bayes-Wahrscheinlichkeit fiir den Graphen 
C J, wenn die Daten D beobachtet wurden. Sie entspricht damit in etwa der Likelihood des Ciraphen G. L wird maximien. 
d. h. es wird deijenige Graph G gesucht, der fiir die gegebenen Daten D die Funktion L maximiert 
[0097] Eine besonders eflfiziente Mbglichkeit, die Kanten des Graphen G zu finden, besteht darin, dass zunSchst eine 
Menge von unabhangigen Zufellsvariablen angenommen wird. Sukzessiv wird jeweils diejenige Kante dem Netzwerk 
hinzugefugt, die die Funkdon L am meisten herabsetzt. Dies wird fortgesetzt, bis Minimum von L eneicht isL 
[0098] Wie ba^its erwShnt, ^sst sich dies in einer bevorzugten, einfachen AusfUhningsart mit Hilfe der folgenden 
Schritte durchfiihren: 

- zunachst wird diejenige aileinige Kante gesucht, die L minimiert, sozusagen die beste erste Kante. 

- anschlicBcnd wird die bcstc zwcitc Kante gesucht, d. h. diejenige zwcitc Kante, die zusStzlich zur bcrcits vorhan- 
denen ersLen Kanle L am weilesLgehenden minimiert. 

- usw., bis sich L nicht mehr weiter miaimieren ISsst 

[0099] Dieser insbesondere fur hochdimensionale Daten sehr zeitaufwandige Aigorithmus lasst sich durch schnelle, 
fast-optimale Suchstrategien fur wichtige Abhangigkeiten entscheidend beschleunigen. Ein bekannter Aigorithmus hier- 
rUr isl der bereils erwahnle Greedy-AlgoriQuiius. 

[0100] Urn nicht nur lokale Maxima der Graphenstruktur zu fin d en^ konnen bekannte Algorithmen wie simulated an- 
nealing Oder genetische Algorithmen mit den beieits geschilderten Algorithmen kombiniert zur Suche des optimaien 
Graphs eingesetzt werdoi. 

[0101] Aus dem solchcrart crschlosscncn rcgulatorischcn Nctzwcric konnen gccignctc Targets idcndfizicrt wcrdcn. So 
erkennt man in Fig. 1 beispielsweise, dass zur Beeinflussung der Konzentration Oder Wirksamkeit des Effektorproteins A 
sowohl das Gen A selbst als auch die Gene B, C und D als T^et dienen konnen. 

Patentanspruche 

1. Verfahren zum Identifizieren pharmazeutischer 'l^ets mit folgenden Schritten: 

a) Eine Mehrzahl von Gen-Expressionsmustem einer Zelle wird bestimmt, wobei jeweils die Expressionsrate 
der Gene der Zelle bestimmt wird. 

b) Mindestens eine Abhangigkeit zwischen den Expressionsraten der Gene der Zelle wird bestimmt 

c) Aus mindestens einen Abhangigkeit wird das regulatorische Netzwerk der untersuchten Zelle erschlossen. 

2. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass angenommen wild, dass nicht alle 
Expressionsraten der Gene der Zelle voneinander abhangig sind. 

3. Verfahren nach dein voriiergehenden Anspruch, dadurch gekeimzeichnel, 

dass zunachst eine Menge von unabhangigen Gen-Expressionsraten angenommen wird; 

dass sukzessiv jeweils diejenige Abhangigkeit hinzugefugt wkd, die den Fehler fiir die ErklSrung der Cien-Expres- 
sionsmuster am meistra herabsetzt 

4. Verfahren nach cincm der vorhcrgchcaidcn Anspruchc, dadurch gekennzeichnet, dass die Abhfingigkcitcn mil 
Hilfe von Meihoden der Graphen-Theorie ermiUeU. werden. 

5. Verfahren nach einem der voriiergehenden Aiispriiche, dadurch gekennzeichnet, 
dass die Expressionsrate mindestens eines (fens der Zelle kiinstlich verandert vtird; 

dass mindestens ein Gai-Expressionsmuster der solcherart veranderten Zelle bestimmt wird; und 

dass das bcstimmtc Gcn-Exprcssionsmustcr mit mindestens cincm bcrcchnctcn Gcn-Exprcssionsmustcr vciglichcn 

wird, das auf der Basis der mindestens einen kiinstlich veranderten Gen-HxpressionsraCe berechnet wurde. 

6. Anordnung zum Idendfizieren pharmazeutischer T^eis 

d) mit Mitteln zum Bestimmen einer Mehrzahl von Cien-Expressionsmustem einer Zelle. wobd jeweils die 
Expressionsrate der Gene der Zelle bestimmt wird; 

e) mit Mitteln zum Bestimmen mindestens einer Korrelation zwischen den ExprejKionsraten der Gene der 
ZeUe; 

f) mit NGtteki zum ErschlieBen des regulatorischen Netzwerks der untersuchten Zelle aus den bestimmten 
Koirelationen. 
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